Day 14 Glue ETL Job 教學 - Part 1 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 14

AI & Data

AWS 數據處理與分析實戰系列第 14 篇

Day 14 Glue ETL Job 教學 - Part 1

12th鐵人賽

eric88348

2020-09-28 12:37:49

1354 瀏覽

分享至

接下來我們來介紹 ETL Job
在開始之前我們需要先準備資料源

這次我們一樣使用 Kaggle 的資料，將資料放入 S3，階層如下圖

it.sample.s3
   ㇄SampleData
        ㇄order
        ⎢  ㇄orders.csv
        ㇄order_products_prior
        ⎢  ㇄order_products__prior.csv
        ㇄order_products_train
        ⎢  ㇄order_products__train.csv
        ㇄products
        ⎢  ㇄products.csv
        ㇄sample_submission
        ⎢  ㇄sample_submission.csv
        ㇄departments
        ⎢  ㇄departments.csv
        ㇄aisles
           ㇄aisles.csv

S3 上的資料準備完成後，再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler (SimpleDataCrawler)，將S3 的路徑由 s3://it.sample.s3/SampleData/order 改為 s3://it.sample.s3/SampleData，完成後執行此 Crawler

執行完成後可以看到 table 中多出了 7 張新的 Table，但會發現其中一張 Table(products) 沒有爬取成功，因為在 589 行的地方出現了 "10"" Bamboo Skewers" 這樣的資料，所以導致 Crawler 無法正常判斷，使用編輯器將 "" 去除，再重新執行一次 Crawler 就可以正常爬取資料，如果發現欄位有異常，可以先刪除 Table 在執行 Crawler